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Актуализация мониторинговых данных 
на основе классификации 


Предложена методика актуализации мониторинговых данных, основанная на нахождении степени доверия к 
показателям точек наблюдения с применением схем классификации. Разработана соответствующая 
информационная технология актуализации данных. Проведена апробация на данных гидрологического 
мониторинга (уровня грунтовых вод в опорных скважинах сети наблюдений) Днепропетровской области, 
показана целесообразность ее применения. 


Постановка проблемы в общем виде и ее связь 
с важными научными и практическими задачами 


В связи с возрастающими объемами статистической информации, накапливаемой 
в распределенных, разрозненных источниках данных, и постоянно меняющимися 
требованиями к анализу информации актуальным направлением исследований становит- 
ся актуализация данных для решения аналитических задач. 

Актуализация данных — приведение данных в соответствии с состоянием отобража- 
емых объектов предметной области. Актуализация реализуется посредством операций 
добавления, исключения и редактирования записей [1]. Актуализация данных позволяет 
определить наборы данных с низкой степенью доверия, выделять заблаговременно «лож- 
ные» наборы данных, при прогнозировании снижает вероятность ошибочного результата. 

Основным требованием аналитика является достоверность используемой информа- 
ции. Как правило, анализ предметной области показывает изменение структур данных 
мониторинга, потребность проведения согласования данных, без чего нельзя говорить о 
достоверности. Помимо этого данные содержат ошибки измерений. При исследовании 
мониторинговых данных требуется рассматривать не только отдельные показатели, но и 
динамические ряды, встает проблема обеспечения минимума методологических искаже- 
ний и неконтролируемых человеком потерь информации в процессе ее обработки. 

Общепринятой методики актуализации данных не существует, в разных предмет- 
ных областях используются свои методы. В то же время для мониторинговых данных 
можно предложить универсальный подход, основанный на классификации. Классифика- 
ция — отношение соответствия между классом и диапазоном изменения показателя 
[21, [3]. Существует много схем одномерной классификации, в данной работе предлагает- 
ся применять такие, как «равные интервалы», «естественная разбивка», «стандартное 
отклонение» [4]. 

Цель работы — разработка методики и соответствующей информационной техноло- 
гии актуализации данных с применением схем классификации, проверка их адекватности 
на реальных мониторинговых данных Днепропетровской области. 
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Методика актуализации данных с использованием 
схем классификации 


Концептуальная схема разработанной методики актуализации данных и соответ- 
ствующей информационной технологии приведена на рис. 1. 


Отбор исходных данных 
Разведочный анализ данных 


Визуальный анализ графиков 


Разбивка на классы 


«Равные интервалы» 
«Естественная разбивка» 
«Стандартное отклонение» 


Подсчет степени доверия 
по каждой схеме 


Получение элементарных 


Актуализация данных 


Рисунок 1 — Концептуальная схема методики актуализации данных 


Рассмотрим основные этапы получения актуализированных данных (на примере 
гидрологического мониторинга). 

Этап 1. Отбор исходных данных. 

Грунтовые воды — подземные воды первого от поверхности земли постоянного 
водоносного горизонта, не имеющего сверху сплошной кровли водонепроницаемых 
пород, не обладают напором и подвержены сезонным колебаниям уровня и дебита [5]. 
Моделирование и прогнозирование уровня грунтовых вод (УГВ) является важной народ- 
нохозяйственной задачей. 

Полный набор исходных данных составляет ежемесячный мониторинг по 22 сква- 
жинам за 31 год наблюдения с 1974 по 2005, всего 8184 значений. Из него отбираются 
показатели всех скважин за один месяц (март) по всем годам. Анализу подвергается 
выборка {7}, 1=1,2,..., М, по М= 22 скважинам за М = 31 год наблюдений, всего 982 зна- 
чения (пример исходных данных — табл. 1). 7;= (7;1,...„0;м)-— наблюдения по 1-й скважине. 


Таблица 1 — Выборка по 22 скважинам на 31 год наблюдений 


М | М5 х у 1974 | 19751... 7 ... | 2004 | 2005 
1 14360 | 34,4861 | 34,4861 | 3,02 | 3,13 не Е р 2,77 | 1,60 
2 14354 | 34,4906 | 34,4906 | 4,22 | 4,28 ре не а 4,14 | 3,07 
р 2} 

21 6337 | 35,1675 | 35,1675 | 1,42 | 1,54 нь нас Е 1,05 | 1,05 

22 | 8760 | 34,8933 | 34,8933 | 2,12 | 2,00 мн ы р 2,18 | 2,18 
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Этап 2. Разведочный анализ данных. 
Получение элементарных статистик (пример - табл. 2), построение графиков, 
визуальный анализ графиков (рис. 2) по скважинам. 


Скважина № 15000 


о УГВ (м.) 


Таблица 2 — Элементарные статистики ряда 711 


Максимум 0,90 
Минимум 0,02 
Среднее 0,42 
Дисперсия 0,06 
Стандартное 0.24 
отклонение 


Этап 3. Разбивка на классы. 

Производится разбивка выборки {7}, 1=1,...,№М на классы по трем схемам клас- 
сификации: «равные интервалы», «естественная разбивка», «стандартное отклонение». 

1. «Равные интервалы»: 


У — соответственно минимальное и максимальное зна- 


а) вычисляются И; тах 


чения выборки; 


6) промежуток [И „; ‚тах | делится на К интервалов равной длины; 


в) элементу ряда присваивается номер класса, соответствующий номеру интер- 
вала, в который попадает его значение. 

2. «Естественная разбивка» (аналог кластеризации): 

а) ряд представляется в виде гистограммы; 

6) разбивка на А классов проводится в соответствии с резкими скачками в значе- 
ниях частот; в один класс попадают элементы ряда, имеющие близкие значения; 

в) каждому элементу ряда присваивается номер класса. 

3. «Стандартное отклонение»: 

а) вычисляется 27 — среднее значение выборки; 

6) вычисляется 5 — стандартное отклонение; 

в) разбиение на интервалы начинается от 2 последовательным прибавлением и 
вычитанием т-й доли (0 < т < 1) стандартного отклонения 5: 


[7—т-5; 7+т-5); [7 —2тхз; Х—тхз), [7+ тхз; 7+2тх 3); г 
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г) каждому элементу выборки, значение которого попало в интервал [—-5; 


Е-+т: 5], присваивается номер класса. 


Подсчитывается число попаданий в каждый из классов значений отдельно по каж- 
дому, по каждой скважине. Полученные градации для классификации приведены в табл. 3. 


Таблица 3 — Градации классификаций 


Естественная Стандартное 
Градации Равные интервалы 
разбивка отклонение 
Гинтервал 0,00 - 1,46 0 - 2,12 0,00 - 0,81 
П интервал 1,46 -2,89 2,12 -4,25 0,81 - 1,97 
Ш интервал 2,89 - 4,50 4,25 - 6,37 1,97 -3,13 
ГУ интервал 4,50 - 7,39 6,37 - 8,50 3,13 - 4,29 | 
У интервал 7,39 - 10,62 8,50 - 10,62 4,29 - 5,45 
УГинтервал — — 5,45 - 10,10 


Пример полученной классификации «естественная разбивка» приведен в табл. 4. 


Таблица 4 — Классификация «естественная разбивка» 


М | Му х у 
1 14360 | 34.4861 | 48.0364 
2 14354 | 34.4906 | 48.0417 


21 6337 | 35.1675 | 48.4728 
22 | 8760 | 34.8933 | 48.5228 


Этап 4. Подсчет степени доверия по каждой схеме. 


а) определяются частости Ир 1=1....М№, /=1,...К попаданий объектов наблюде- 


ний в заданные К классов; 
6) находится число попаданий для самого многочисленного класса в 7; относи- 


тельно всех попаданий значений скважины по каждой из трех схем разбивки 
* 
Г. =аго шах Г.; ; (1) 
1 7 И 


в) находится степень доверия к значениям 1) 
* 


И. 
и(2;) = о : (2) 


г) находится средняя степень доверия по трем схемам классификации. 

Этап 5. Актуализация данных. 

Выделяются и признаются не пригодными к дальнейшей работе те показатели 
скважин, чьи степени доверия ниже заданного порога д. 

Как видно из табл. 5, выделены три скважины с наименьшей (при заданном пороге 
б =0,7) степенью доверия по трем способам разбивки и три скважины по двум способам 
разбивки («равные интервалы» и «стандартное отклонение»), всего 6 скважин. 

Схема «естественная разбивка» выделяет только 3 скважины, они также выделены 
двумя другими способами разбивки, ее можно считать проверочной. 
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Таблица 5 — Результат актуализации данных 
М М зКу х у Равные Естественная Стандартное Среднее 
интервалы разбивка отклонение 

т | 14360 | 34.4861 | 48.0364 0,56 0,75 ИИ 
2 | 14354 | 34.4906 | 48.0417 0,84 0,78 0,69 

3 | 14361 | 34.2859 | 48.0150 0,47 0,41 0,41 

4 _| 15064 | 36.0939 | 48.2426 0,66 0,59 0,38 

5 | 14358 | 34.1467 | 48.1769 0,97 0,97 0,91 

6 | 12752 | 36.0244 | 48.1772 1,00 1,00 0,91 

7 | 14699 | 36.0333 | 48.1833 1,00 0,72 0,84 

8 | 14698 | 36.0281 | 48.185 0,94 0,75 0,94 

9 | 12926 | 36.1522 | 48.0556 0,88 0,97 1,00 

10 | 15584 | 36.5644 | 48.1106 0,97 1,00 1,00 

11 | 15000 | 36.0238 | 48.2632 1,00 1,00 0,91 

12 | 5946 36.05 48.31 1,00 1,00 0,56 

13 | 14329 | 35.9033 | 48.5492 0,66 0,91 0,53 

14 | 15221 | 35.8394 | 48.5689 0,50 0,84 0,69 

15 | 6951 35.5057 | 48.3031 0,94 0,94 0,84 

16 | 6966 35.92 48.4619 0,94 0,94 0,72 

17 | 8776 35.0744 _| 48.9269 0,66 | 0,53 0,66 

18 | 8777 35.0803 _| 48.9206 0,88 0,88 0,66 

19 | 14697 | 35.0997 | 48.9219 0,94 0,84 0,94 

20 | 8519 34.5638 | 49.1131 1,00 0,88 0,69 

21| 6337 35.1675 | 48.4728 0,97 0,91 0,91 

22 | 8760 34.8933 _]| 48.5228 0,69 0,97 0,72 

0,47 0,41 0,38 | шт 
1,00 1,00 1,00 | тах 


| Граница Днепропетровской области 
Реки к. 


Города региона 


Степень доверия по трем схемам 
(®) 0,430000 - 0,700000 
О 01700001 - 0,789814 
О 0789815- 0,887695 
© 0,887696 - 0,990000 


И Бассейн р. Днепр 


Рисунок 3 — Опорные скважины Днепропетровской области и степени доверия 
к показателям мониторинга 
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На рис. 3 приведена карта расположения скважин в Днепропетровской области и 
средние по трем схемам степени доверия к ним. 

Скважины с низкой степенью доверия при прогнозировании могуг привести к не- 
адекватным результатам. 

Актуализированные данные дают возможность при дальнейшем прогнозировании 
снизить процент ошибок. 


Выводы 


Разработана и реализована компьютерная информационная технология актуализа- 
ции данных, основанная на схемах классификации данных. Дальнейшие исследования 
пространственно распределенных данных мониторинга целесообразно направить на дву- 
мерный вариант классификации и связать результаты с данными геостатистического 
анализа. При более детальном исследовании гидрологических данных необходимо при- 
нять во внимание то, что на территории Днепропетровской области расположено три раз- 
личных гидрологических бассейна. 
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О.0. Ломов 

Актуал1защя монторингових даних на основ! класифкаци 

Запропонована методика актуалзаци мошторингових даних, основана на знаходженн! ступеня доври до 
показниюв точок спостереження 1з застосуванням схем класификаци. Розроблена вдповдна 1нформащйна 
технолопя актуалзаци даних. Проведена апробащя на даних Пдролопйчного мон!торингу (равня грунтових 
вод в опорних свердловинах мереж! спостереження) Дниропетровсько! област!, показана дощльнсть й 
застосування. 


О.А. Готоу 

АсеиаНтайоп оЁ МопНогто Баба оп Фе Ваз о Са Шсайоп 

Те тефо4о!оэу оЁР топйоппе Чайа асбаа|таноп, Базе оп Нп4ште оё 4еогее оЁ БейеЁ ю ш4ехез оЁ 
обзегуайоп ро ул с1аз;1ИсаНоп зсВете аррПсайоп уаз зиоое$е4. Арргорпаёе шогтайоп {есБпо]огу 
о# Чаёа асбаа|таНоп уаз 4еуе]оре4. ТБе арргофайоп оп Ву4го!о21с попйогте Дафа ([еуе| оЁ заМеггапеай 
у’ацегз ш геегепсе Богецо]е о# обзегуайоп пе?) оЁ Опергорейгоуз$К гез1оп \уаз сагле4 от, Ше ехреЧ1епсу оЁ 
15 аррПсайоп \уаз зВо\т. 


Статья поступила в редакцию 10.07.2009. 
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